一级黄色电影在线高清免费直播,91免费看黄片在线,91成人无码免费一区二区在线看,久久无码视频一区二区三区

大數據,到底有多大?

發布時間:2021-09-06 閱讀量:128


上期我們講到了大數據的含義,今天我們一起探討一下大數據到底有多大。

我們傳統的個人電腦,處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。

TBGBMBKB的關系,大家應該都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大數據是什么級別呢?PB/EB級別。

大部分人都沒聽過。其實也就是繼續翻1024倍:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是631903部《紅樓夢》小說。

普通硬盤

1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽上千年。

2個機柜

1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。

21個籃球場

阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。

阿里數據中心內景

EB還不是最大的。目前全人類的數據量,是ZB級。

1 ZB = 1024 EB (ZB - zettabyte)

2011年,全球被創建和復制的數據總量是1.8ZB

而到2020年,全球電子設備存儲的數據,將達到35ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比42個鳥巢體育場還大。

數據量不僅大,增長還很快——每年增長50%

目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級別。

大數據的級別定位

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 ZB = 1024 EB (ZB - zettabyte)

數據的來源

數據的增長,為什么會如此之快?

說到這里,就要回顧一下人類社會數據產生的幾個重要階段。

大致來說,是三個重要的階段。

第一個階段,就是計算機被發明之后的階段。尤其是數據庫被發明之后,使得數據管理的復雜度大大降低。各行各業開始產生了數據,從而被記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,也是被動的。

?

世界上第一臺通用計算機-ENIAC

第二個階段,是伴隨著互聯網2.0時代出現的。互聯網2.0的最重要標志,就是用戶原創內容。隨著互聯網和移動通信設備的普及,人們開始使用博客、facebookyoutube這樣的社交網絡,從而主動產生了大量的數據。

第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的數據,例如遍布世界各個角落的傳感器、攝像頭。

經過了被動-主動-自動這三個階段的發展,最終導致了人類數據總量的極速膨脹。

大數據的4Vs

行業里對大數據的特點,概括為4V。前面所說的龐大數據體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是VarietyVelocityValue

我們一個一個來介紹。

Variety(多樣化)

數據的形式是多種多樣的,包括數字(價格、交易數據、體重、人數等)、文本(郵件、網頁等)、圖像、音頻、視頻、位置信息(經緯度、海拔等),等等,都是數據。

數據又分為結構化數據和非結構化數據。

從名字可以看出,結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。

結構化數據

例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。

而網頁文章、郵件內容、圖像、音頻、視頻等,都屬于非結構話數據。

在互聯網領域里,非結構化數據的占比已經超過整個數據量的80%

大數據,就符合這樣的特點:數據形式多樣化,且非結構化數據占比高。

Velocity(時效性)

大數據還有一個特點,那就是時效性。從數據的生成到消耗,時間窗口非常小。數據的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。

我們還是用數字來說話:

就在剛剛過去的這一分鐘,數據世界里發生了什么?

Email2.04億封被發出

Google200萬次搜索請求被提交

Youtube2880分鐘的視頻被上傳

Facebook69.5萬條狀態被更新

Twitter98000條推送被發出

123061840張車票被賣出

……

怎么樣?是不是瞬息萬變?

Value(價值密度)

最后一個特點,就是價值密度。

大數據的數據量很大,但隨之帶來的,就是價值密度很低,數據中真正有價值的,只是其中的很少一部分。

例如通過監控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鐘。

更多相關資訊